腾讯云对“前沿数控”数据丢失技术复盘:运维操作违规
近日关于腾讯云云硬盘故障导致创业公司云“前沿数控”数据全部丢失的事情在微博和朋友圈中引起了极大的关注,不管是云计算技术还是腾讯云和前沿数控双方就赔偿金额的分歧都成了大家津津乐道的话题。事情在发酵了几天以后,8 月 7 日晚,腾讯云方面给出了“关于客户‘前沿数控’数据完整性受损的技术复盘”,复盘中称本次事故起源自磁盘静默错误导致的单副本数据错误,再由于运维人员在数据迁移中的违规操作,导致客户数据完整性受损。
8 月 5 日,前沿数控技术新媒体在微博发表长文 《腾讯云给一家创业公司带来的灾难!》,公开质疑“腾讯云到底安不安全?为什么数据丢了不能恢复?”。
从文章中了解到,前沿数控是一家在 2014 年从微信公众号起家的创业公司,专注于数控、模具和机械行业,随后开发了包括网站、H5、小程序产品,为应对迅速增加的流量趋势以及安全可靠的需求,前沿数控选用了腾讯云服务器。
今年 7 月 20 日,腾讯云三区部分云硬盘出现故障,导致前沿数控网站、小程序、H5 突然出现打不开。在联系腾讯云后台后,腾讯云方面确认出了故障正在紧急修复。直到 7 月 21 日下午,前沿数控尝试恢复数据时,发现下载的数据已经损坏,无法使用。在与腾讯云沟通了两天后,前沿数控被告知数据 100% 找不回来。按照腾讯云的说法,“前沿数控平台一块操作系统云盘,因受所在物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。”
核心数据全部丢失,意味着前沿数控长期积累的流量将丢失,广告主的广告也不能在其平台上正常展示,公司的融资计划也不得不中止。
遭受了这样的损失,前沿数控愤然对腾讯云提出索赔,在对其产品线发展及相关情况、丢失的数据、给前沿数控技术平台带来的影响、平台损失价值进行评估后,要求的赔偿金额为 11016000 元。腾讯云就赔偿一事也做出了官方回应,双方就赔偿金额存在分歧,腾讯云给出了“赔偿 + 补偿”总金额为 136469 元的解决方案,赔偿金额双方诉求相差 80 倍。
8 月 7 日,腾讯云再次发表声明,对此次事故做了复盘。复盘中腾讯云表达了歉意,称该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。
从复盘来看,运维人员又要为事故背锅。
本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。
数据搬迁过程中的违规操作主要如下两点:
第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;
第二是正常数据搬迁完成之后,源仓库数据应保留 24 小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。
复盘中腾讯云也强调了改进措施:审视所有数据流程,提升运维的自动化和流程化,优化巡检机制。
云计算服务出故障的事情已经屡见不鲜,前有阿里云服务大规模故障,外有亚马逊和谷歌云服务崩掉的时候。然而在云计算时代,我们已经离不开这些云计算的基础设施。不管是提供商还是客户都不希望出现这些故障,但是故障再所难免。此次前沿数控的事故引发了大量的关注,正是因为大家都有可能面临这样的风险。云服务到底安不安全,运维服务到底要如何强化,出了问题责任谁来承担?技术在给我们带来极大便利的同时,也带来了一定的挑战和问题。作为用户,这样的事故是不是提醒了大家鸡蛋不能放在一个篮子里,混合云和多云的策略又是否可行?
活动推荐
2018 年,有哪些值得关注的运维技术热点?第四届 CNUTCon 全球运维技术大会正式启动啦,包括智能化运维、Serverless、DevOps 等热门话题,数十位大牛联合出品,揭秘最前沿运维技术,推荐学习!点击“阅读原文”了解更多大会精彩。